Day 22：綜合回顧

2025 iThome 鐵人賽

DAY 22

佛心分享-IT 人自學之術

17th鐵人賽

110 瀏覽

本回顧將專注於 LLM 的核心：Transformer 架構，以及它如何完成從學習到應用的整個生命週期。

大型語言模型（LLM）主要基於 Transformer 的解碼器 (Decoder) 架構。下圖展示了單一 Decoder Block 如何處理信息：

步驟	核心操作	關鍵技術與目的
輸入層	Tokenization $\rightarrow$ Embedding	將原始文字轉為模型可理解的高維向量。加上 Position Encoding 賦予序列順序資訊。
I. 自注意力機制	Multi-Head Self-Attention	模型計算輸入序列中所有 Token 彼此間的關聯性（Q、K、V 矩陣）。Masking 確保生成時只能看到已生成的資訊。
II. 正規化與連接	Add & Layer Normalization	殘差連接 (Residual Connection) 避免梯度消失；層級正規化穩定每層的輸出。
III. 前饋網路	Feed-Forward Layer (FFN)	透過兩層線性變換（MLP），增強模型提取非線性特徵的能力。
重複 N 次	整個 Decoder Block 垂直堆疊 $N$ 次。	增加模型深度，提升模型捕捉複雜語言模式的能力。
輸出層	Linear + Softmax	將最終輸出向量轉換為詞彙表上每個詞的機率分佈，預測下一個 Token。

訓練階段是 LLM 從海量數據中學習語言規律、世界知識的過程，本質上是大規模的自監督學習。

資料準備 (Data Preprocessing)：收集並清理數萬億 Token 的大規模文本。使用 Tokenizer 將文字轉為模型理解的 Token ID 序列。
模型初始化 (Model Initialization)：建立多層 Transformer Decoder 架構，所有權重以隨機方式初始化，準備學習。
前向傳播 (Forward Propagation)：將輸入 Token 序列送入 Transformer，模型層層計算，最終輸出序列中每一個 Token 的下一個 Token 的機率分佈。
損失計算 (Loss Calculation)：使用交叉熵損失 (Cross-Entropy Loss)，量化模型預測的機率分佈與真實標籤之間的差距。目標是最小化損失。
反向傳播 (Backpropagation)：將損失計算出的誤差反向傳遞，計算每個權重的梯度。使用 AdamW 等優化器，根據梯度更新權重。
重複與對齊：模型重複訓練多輪（Epochs），直至收斂。最後透過 RLHF/DPO 等技術進行安全對齊，確保模型行為符合人類偏好和倫理規範。

推論階段是模型在部署後，根據用戶指令逐字 (Autoregressively) 創造答案的過程。

提示處理 (Prompt Processing)：用戶輸入的 Prompt（可能已透過 RAG 增強）經過 Tokenizer 轉為初始 Token 序列。
第一次計算：模型計算輸入序列，預測第一個生成的 Token 的機率分佈。
取樣與緩存：根據 Softmax 輸出的機率，使用 Beam Search 或 Top-K/Top-P 等策略選出最合適的第一個 Token。同時，計算產生的 KV Cache 會被儲存（並由 vLLM 等工具優化管理）。
自回歸循環 (Autoregressive Loop)：將原始 Prompt + 第一個生成的 Token 作為新的輸入序列，送回模型計算第二個 Token。
高效加速：由於 KV Cache 儲存了前面 Token 的計算結果，模型在後續步驟只需計算新生成的那個 Token，極大地加速了推論過程。
終止：重複此過程，直到模型輸出結束標記EOS 或達到最大生成長度。